1
Définir les relations par les distributions conditionnelles
MATH003Lesson 10
00:00
Bienvenue dans un changement de paradigme en statistique. Nous passons au-delà de l'intuition simple des « lignes de tendance » vers un cadre rigoureux cadre distributionnel. Ici, nous définissons une relation non pas uniquement par un coefficient de corrélation, mais comme toute variation du comportement probabiliste d'une variable réponse $Y$ lorsque le prédicteur $X$ varie.

Définition 10.1.1 : Le lien statistique

Deux variables $X$ et $Y$ sont considérées liées si il y a une quelconque changement dans la distribution conditionnelle de $Y$, sachant $X = x$, lorsque $x$ change. En revanche, un état de « pas de relation » est mathématiquement équivalent à l'indépendance de $X$ et $Y$.

Équivalence logique

Les variables $X$ et $Y$ sont indépendantes si et seulement si $f(y|x) = f(y)$ pour toutes les valeurs de $x$. Cela implique que la fonction de fréquence relative conjointe peut être factorisée comme suit :

$$f(x, y) = f(x)f(y)$$

Par conséquent, tester une relation est fondamentalement un test d' indépendance.

Mécanismes de changement

Une relation est identifiée par tout déplacement dans la fonction de densité conditionnelle (comme illustré à la figure 10.1.1). Cela inclut :

  • Décalage de la moyenne : La valeur attendue $E(Y|X)$ change (le cas le plus courant).
  • Décalage de la variance : L'écart-type ou l'incertitude de $Y$ dépend de $X$ (hétéroscédasticité).
  • Changement de forme : La distribution globale se transforme (par exemple, d'une distribution symétrique à une distribution asymétrique).

Établir une causalité par la conception

Une relation statistique n'implique pas de causalité. Pour affirmer que $X cause $Y$, nous devons tenir compte des variables de confusion par le biais du plan d'expérience:

  • Traitements témoins : Fournit une référence pour la comparaison.
  • Effet placebo : Atténuation de l'amélioration perçue grâce à des traitements inactifs.
  • Désaveu : En utilisant des expériences en aveugle (les destinataires ignorants) et des expériences à double aveugle (destinataires et chercheurs ignorants) afin d'éliminer tout biais.
  • Blocs : Comme vu dans Exemple 10.1.7, nous utilisons des variables de blocage ($W$, comme la fertilité du sol) pour garantir que la relation entre le type de blé ($X$) et le rendement ($Y$) ne soit pas faussée par des conditions préexistantes.
🎯 Estimation mathématique fondamentale
Nous estimons ces liens à l'aide de vraisemblance conditionnelle fonctions. Pour des données discrètes avec des comptages $f_{ij}$ :
$$L = \prod_{i=1}^a \prod_{j=1}^b (\theta_{j|X=i})^{f_{ij}}$$ Erreur standard : $SE = \sqrt{\frac{\hat{\theta}_{ij}(1 - \hat{\theta}_{ij})}{n}}$